Auteur : Mathieu Valette http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=1509 Index des publications de Auteur Mathieu Valette fr 0 Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=3688 Cet article entend dresser, dans un premier temps, un panorama critique des relations entre TAL et linguistique. Puis, il esquisse une discussion sur l’apport possible d’une sémantique de corpus dans un contexte applicatif en s’appuyant sur plusieurs expériences en fouille de textes subjectifs (analyse de sentiments et fouille d’opinions). Ces expériences se démarquent des approches traditionnelles fondées sur la recherche de marqueurs axiologiques explicites par l’utilisation de critères relevant des représentations des acteurs (composante dialogique) et des structures argumentatives et narratives des textes (composante dialectique). Nous souhaitons de cette façon mettre en lumière le bénéfice d’un dialogue méthodologique entre une théorie (la sémantique textuelle), des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie) et les usages actuels du TAL en termes d’algorithmiques (apprentissage automatique) mais aussi de méthodologie d’évaluation des résultats.A method of corpus semantics applied to opinion mining and sentiment analysis: the impact of dialogical and dialectical features on the expression of subjectivity. This paper first aims to provide a critical overview of the relationship between NLP and linguistics, and then to sketch out a discussion on the possible contribution of corpus semantics in an application-based context based on several subjective text mining studies (sentiment analysis and opinion mining). These studies break away from traditional approaches founded on the detection of axiological markers. Instead, they use explicit criteria related to the representation of actors (dialogical component) and argumentative or narrative structures (dialectical component). We hope to highlight the benefit of a methodological dialogue between theory (text semantics), meaning-oriented methods of corpus linguistics (i.e. textometrics) and NLP current practices in terms of algorithmic (machine learning) and assessment methodology. Sun, 16 Aug 2015 16:30:39 +0000 Sun, 16 Aug 2015 16:30:39 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=3688 Méthode de sémantique de corpus pour la fouille de données subjectives http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=3637 Présentation à la journée d'étude de l'ATALA - Fouille d'opinion et analyse de sentiments - Paris (INALCO), 21 mars 2015 Tue, 28 Apr 2015 15:26:22 +0000 Fri, 01 May 2015 13:43:36 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=3637 Approche textuelle du lexique http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=2613 La linguistique doit prendre part et position face aux nouveaux enjeux théoriques et méthodologiques naissant autour du document numérique et de l’élaboration des connaissances, et ne pas laisser à d’autres disciplines (sciences de l’information et de la communication, informatique) le soin de décrire, seules, ces nouveaux objets sémiotiques. Leur diversité et leur complexité sont en outre à problématiser tant dans la perspective de la variété des pratiques sociales que dans celle du multilinguisme. L’élaboration conjointe de modélisations linguistiques et d’outils informatiques destinés à leur validation et leur mise en œuvre s’avère une condition nécessaire à leur description. Dans ce cadre général, notre objectif est de présenter un ensemble de propositions visant à situer l’étude du lexique dans le paradigme textuel. Plus précisément, notre projet est d’étudier les déterminations textuelles de la conceptualisation et de la lexicalisation des concepts. Dans le premier chapitre, nous effectuons une revue critique des principaux modes de structuration et de représentation du lexique, en particulier dans la perspective d’un traitement automatique du sens. Nous exposons ensuite certaines propositions de la sémantique interprétative et textuelle de F. Rastier en la matière. Après une présentation de la notion de classes sémantiques, nous nous focalisons sur l’une d’entre elles, le taxème, et nous discutons plus particulièrement de son rôle dans la représentation de la praxis. Dans le deuxième chapitre, nous traitons de la représentation du lexique du point de vue du texte, c’est-à-dire du point de vue de l’agencement syntagmatique. Nous abordons les différentes objectivations sémantiques proposées par la théorie susmentionnée (isotopies, molécules sémiques) de façon à mettre en évidence le rôle de l’articulation lexique/texte dans la cohésion textuelle. Dans le troisième chapitre, nous présentons un ensemble de travaux réalisés dans la perspective d’une instrumentation de l’analyse sémantique des textes et du lexique faisant la synthèse des recherches relatées dans les deux précédents chapitres. Enfin, dans un quatrième chapitre, nous abordons la question de la conceptualisation et de la lexicalisation des concepts. Nous proposons une méthode de description fondée sur les propositions théoriques et les outils informatiques décrits précédemment. Nous présentons, enfin, un ensemble de prospectives et un programme de recherche relatif à l’approfondissement de notre approche dans la perspective des nouvelles applications de la linguistique, en particulier dans un contexte variationniste et multilingue. Thu, 06 May 2010 17:01:04 +0000 Thu, 06 May 2010 17:16:53 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=2613 De la polysémie à la néosémie http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=2119 Le prestige de la polysémie tient à la permanence d'une linguistique du signe perpétuant la conception commune du langage comme nomenclature. Le mot isolé résulte d'une décontextualisation. Restituer son contexte, c'est restituer les conditions de sa sémantisation, c'est-à-dire de son interprétation comme signe. Un mot n'est polysémique que si on le sous-détermine en le coupant de tout contexte, bref, si l'on renonce à le comprendre. La polysémie perd beaucoup de son mystérieux prestige si l'on reconnaît que la sémantique lexicale est déterminée par la sémantique textuelle. Rapportés à de problématiques " choses " et/ou à des "représentations " qui échappent à la linguistique, le postulat référentiel et la volonté d'univocité ont suscité le problème de la polysémie. Elle reste pour l'essentiel l'artefact d'une tradition logico-grammaticale indifférente à la diversité des discours, des genres et des textes et conduite à juxtaposer des acceptions hétéroclites sans contextes communs. La notion de prototype a certes paru limiter les aspects jugés angoissants de la polysémie, mais le référent prototypique, souvent identifié à un objet, semble relever de l'ordre de la doxa en cours plus que d'un ordre naturel. On proposera de différencier nettement (i) le lexique des morphèmes (qui appartient à l'ordre de la langue), pour lesquels le problème de la référence ne se pose pas, car leur signification n'est pas déterminable hors d'une analyse sémique par contextes contrôlés, et (ii) le lexique des lexies, formations de discours dont la linguistique de corpus permet de mieux cerner les sens, déterminés par leurs contextes préférentiels en raison de phénomènes de diffusion sémantique. À partir de cette distinction, on étudiera la création de nouveaux signifiés pour des lexies existantes, ou néosémies. La notion de néosémie invite à considérer l'émergence d'une nouvelle sémie en termes d'économie ou d'organisation sémique : la variabilité des actualisations possibles d'une lexie induit un réaménagement des sèmes composant son signifié. Plus précisément, on observera deux tendances conjointes : d'une part, certaines néosémies résultent d'une modification de l'appartenance domaniale, laquelle s'accompagne de variations des contraintes génériques et discursives (changement de domaine,nouvelle domanialisation, etc.), d'autre part, la néosémie est une reconfiguration du ou des sémèmes constituant la lexie d'origine, notamment par diffusion sémique des contextes. On illustrera cette notion au moyen de quelques exemples détaillés. Thu, 05 Mar 2009 16:25:25 +0000 Tue, 10 May 2011 16:42:09 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=2119 Pour une science des textes instrumentée http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=2096 La linguistique de corpus ne sera, selon toute vraisemblance, jamais établie en discipline académique. Aujourd’hui, nombre de linguistes, quels que soient leur discipline ou leurs objets d’étude, sont conduits à constituer des corpus numériques et à les étudier au moyen d’outils logiciels chaque année plus nombreux, sophistiqués et conviviaux. La banalisation de l’outil désenclave ainsi des pratiques longtemps réservées à une petite minorité que l’informatique ne rebutait pas. Mais cette évolution technologique, si elle peut avoir une incidence méthodologique (par exemple et minimalement, en substituant aux exemples construits des exemples attestés), n’a pas pour autant un impact fort sur les théories ni sur la définition des objets de la linguistique : à la morphologie, les corpus de mots ; à la syntaxe, les corpus de phrases ; aux théories énonciatives, les corpus d’énoncés. Et bien que tous ces objets d’étude proviennent de textes, ceux-ci ne sont que rarement considérés comme objet de science dans ces contextes disciplinaires. Ils sont réduits, par défaut, au statut préscientifique de ressource – un matériau brut dont la qualité est déterminée par la seule présence, après raffinage, de l’objet étudié. On collecte ainsi de l’indénombrable : du texte ou du corpus. Sat, 14 Feb 2009 09:44:48 +0000 Sat, 14 Feb 2009 10:05:29 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=2096 Prévenir le racisme et la xénophobie http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=1739 Les jeunes sont particulièrement exposés à l’Internet raciste et xénophobe. En tirant parti de l’expérience d’un projet de détection automatique de sites racistes, cette étude présente un programme concret d’éducation aux médias pour prévenir le racisme et la xénophobie. Tue, 09 Sep 2008 16:31:03 +0000 Tue, 09 Sep 2008 16:31:03 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=1739 Sémantique interprétative appliquée à la détection automatique de documents racistes et xénophobes sur Internet http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=511 L'application de la sémantique interprétative à l'élaboration d'une plate-forme multilingue (PRINCIP) de détection de pages web racistes et révisionnistes. Mon, 14 Apr 2008 21:06:41 +0000 Mon, 14 Apr 2008 21:07:50 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=511 La genèse textuelle des concepts scientifiques. Étude sémantique sur l'oeuvre du linguiste Gustave Guillaume http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=510 Une étude de l'évolution conjointe du lexique et du système conceptuel au cours de l'élaboration de la théorie de G. Guillaume. Mon, 14 Apr 2008 21:06:41 +0000 Mon, 14 Apr 2008 21:07:50 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2936/docannexe/file/Parutions/Parutions/Marges/index.php?id=510